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Abstract 

We consider regression models involving multilayer perceptrons (MLP) with one hidden layer and a Gaussian 
noise. The estimation of the parameters of the MLP can be done by maximizing the likelihood of the model. In 
this framework, it is difficult to determine the true number of hidden units because the information matrix of 
Fisher is not invertible if this number is overestimated. However, if the parameters of the MLP are in a compact 
set, we prove that the minimization of a suitable information criteria leads to consistent estimation of the true 
number of hidden units. To cite this article: 

Resume 

On considere des modeles de regression impliquant des perceptrons multicouches (MLP) avec une couche cachee et 
un bruit gaussien. L'estimation des parametres du MLP peut etre faite en maximisant la vraisemblance du modele. 
Dans ce cadre, il est difficile de determiner le vrai nombre d'unites cachees parce que la matrice d'information 
de Fisher n'est pas inversible si ce nombre est surestime. Cependant, si les parametres du MLP sont dans un 
ensemble compact, nous prouvons que la minimisation d'un critere d'information convenable permet l'estimation 
consistante du vrai nombre d'unites cachees. Pour citer cet article : 



1. Introduction 

On etudie le comportement asymptotique pour Pestimateur du maximum de vraisemblance d'un mo- 
dele de regression utilisant un MLP. On suppose ici qu'il existe un vrai modele MLP qui a genere les 
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observations. Lorsque le nombre d'unites cachees du MLP est surestime, le vrai parametre du modele n'est 
plus identifiable, meme a une permutation pres. Si les parametres du MLP ne sont pas bornes a priori, 
Fukumizu [2] a montre que la statistique du rapport de vraisemblance tendait vers l'infini. Cependant, 
il est courant de supposer que les parametres du modele sont bornes. Dans ce cadre et sous de bonne 
hypotheses, nous montrons qu'un critere d'information convenablement choisi, par exemple le BIC, est 
consistant. 

Definissons maintenant notre modele. Soit les vecteurs de M. d : x = (xi , • • • , Xd) T etwi :— (wn , • • • , Wid) ■ 
La fonction representee par un MLP avec fc unites cachees s'ecrit : 



fc 

F g (x) = 13 + ai<p (h + wfx) 



ou <j) es t la fonction de transfert qui sera supposee dans toute la suite bornee et trois fois derivable. On 
supposera aussi que les derivees premieres, secondes et troisiemes de 4>, notees respectivement 4> , cf> 
et 4> t seront bornees. Soit 9 = (/?, ai, • • • , au 1 b\, ■ ■ ■ , b k , wu, ••• , wid, • • • , Wkd) C K 2fc + 1 + fexd l e vecteur 
parametre du modele. Montrons que si on surestime le nombre d'unites cachees, le vrai parametre n'est 
plus identifiable. Supposons, par exemple, que la vraie fonction soit donnee par un MLP avec une seule 
unite cachee : F g o(x) = a\ tanh(wj 1 x) avec x reel et tanh la fonction tangente hyperbolique. Alors, tout 
parametre 9 de Pensemble 

{6 = (w n = w 2 i = w?i,ai + a 2 = a° l7 [3 = b\ = b 2 = 0)} 

realisera la fonction Fgo. Une autre difficulte apparait lorsque qu'il existe un Wi nul, car la fonction 
4>(bi + wfx) est alors constante comme (3. Pour eviter ce probleme, on restreindra 9 a l'ensemble des 
parametres tels qu'il existe un r\ verifiant \\wi\\ > rj, pour tout Wi € O. 

On considere une suite de variables aleatoires i.i.d. Zi = (Xi, Yi) ou Xi a pour loi q(x)Xd(x) avec la 
mesure de Lebesgue sur R d et q(x) > pour tout x G M. d . La vraisemblance de l'observation z := (x, y) 
s'ecrit alors : 

r / \ 1 --Ky(y-F a (x)) 2 / \ 

Par souci de simplicite et de concision, on supposera que la variance du bruit a 2 est connue. On suppose 
de plus, que le vrai modele a, au plus, M unites cachees. L'ensemble des parametres consideres est alors 
note O := Ui<fc<M©fc avec, pour tout k et un rj > 0, 



O k ■= {9 = {/3,ai, ■ ■ ■ ,a k ,h,- ■ ■ ,b k , wn, ■ ■ ■ , w id , ■ ■ ■ , w kd ) , VI < i < fc, > ry} c 



p 2fc+l+/cxd 



un ensemble suppose compact, c'est-a-dire tel que la norme des vecteurs parametres de &k soit bornee. On 
notera fc° le nombre minimal d'unites cachees tel que Fgo g 6fco represente le vrai modele et f(z) := fgo(z) 
la vraie densite des observations. 



2. Identification de l'architecture du MLP 

Notons l n {9) := Y^ii=i ^°&(fo{ z i))i on definit l'estimateur du maximum de vraisemblance penalise de 
fco, comme etant le nombre d'unites cachees fc qui maximise T„(fc) := max{/„(0) : 9 G <d k } — p n {k) , ou 
p n (k) est le terme qui penalise la log-vraisemblance par le nombre d'unites cachees. On fait maintenant 
les hypotheses suivantes : 

H-l : les fonctions MLP sont identifiables au sens faible suivant : 
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k° k k° k 

Vx, (f + ^ ( b ° + W f X ) =P + J2 a ^ ( bi + W ^ X ) & = ^ et H a i S (b°,w°) = 

i—1 i—1 i—1 i—1 

ou 5 X est la fonction qui vaut 1 en a; et partout ailleurs. 
H-2 : X admet un moment d'ordre 6. 
H-3 : les fonctions de Pensemble 

( (x k X[<j)" (b® + wfx)) ,</>" '(6? + wfx) 1 < i < ka , 

\\ / l<l<k<d, l<i<k u 

sont lineairement independantes dans l'espace de Hilbert L 2 (qXd). 
H-4 : Pn( ) est croissante, p n (ki) — p n {ki) n — -+ oo pour tout k\ > hi et lim„^oo Pn ^ = 

On aura alors le resultat suivant : 

Theoreme 2.1 Sous H-l, H-2, H-3 et H-4 : k^k a . 

Preuve Considerons les fonctions : 

f( z )- 1 

s g (z) := -ly — ou ||.|| 2 est la norme de L (fXd+i) 

II- -lib 

Pour demontrer le theoreme, il suffit de montrer que Pensemble S := {sg, 8 € 0} est une classe de 
Donsker (cf van der Vaart [8]) et le resultat decoulera du theoreme 2.1 de Gassiat [4]. 

Le cas difficile est pour k > ko- Nous allons reparametriser le modele en utilisant une methode similaire 
a celle de Liu et Shao [6] pour les modeles de melange. Lorsque y- — 1 = on a j3 = f3° et il existe 
un vecteur t = (ti)i<i<fc° tel que = to < t\ < ■ ■ ■ < t k o < k et a une permutation pres : bt i _ 1 +i = 
■■■ = K = &°, wti_i+i = ••• = wu = IDj, E5=t,-i+l a J = a i et a i = P° ur tk° + 1 < 3 < k. 
Definissons Si — Ei*=t._ +1 Oj — a" et qj = _, fi aj , on aura alors la reparametrisation 9 = ($>t,ipt) 

avec $ t = (/3,(6,)^ 1 ,K-)- fc = °i,(^)£i,(« J ) J fc = tfc0+1 ), V>t = 0+ i, K)t +i) • L'interet de 

cette parametrisation est que, pour t fixe, <&t est un parametre identifiable et toute la non-identifiabilite 
du modele sera regroupee dans ipt- Ainsi F^o ^^ sera egale a Fgo si et seulement si 

d>° = (/?°, 6?,- .-,6? , 

S v ' 

h 

On aura alors y(z) qui vaudra 

ex P (~2^ (v- (l 3 + Eti( s * + a i) EjU-i+i 3j0( 6 j + W J X ) + Sj=t fc0 +i + wja;))) ) 

^ (- 2^ (w - (z 30 + E-Ii a?0(t? + < T x))) 2 ) 



• • • , ffi.,---,&fc° . , • • • , <o,---,^ ,<V^0 ,0 1 _^_ 1 0) 

t k o—t k o_ 1 t\ t k o—t k a_ 1 k° k — tuo 
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x) 



Lemme 2.2 Notons £>($*, Vt) := I! — 1|| 2 et e(z) := ^ (y - + £*=i a?^(&? + W ° T 2;) ) ) on a 

aZors I 'approximation suivante : 

j-(z) = l + ($ t - *?)%o iW (s) + 0.5(* t - $?) T / ( ;„^ t) (z)(<i> t - *°) + o(£>(* t) ^)) 

auec 

(k° fc° ti 

i=i »=i j=t 4 _i+i 

k" ti k \ 

+ E £ 9jK-^°) T ^^'(^ + ^° T a;)+ E aMbj+wjx) e(z) 

i=lj=ti_i+l J=t fc o + l / 

et 

(** ~ *?)%?,*)(*)(*« - *?) = ( x - ^)) ((** - Ww,*) r (*)(*« - $ °)) + 

E E ^(6j-6?) a «,V'(6?+tfl? r »)+E E ^h-^iVh-^wA^.f.) 

i=l i=ti_i+l i=lj=tj.i+l 
fc° ti ti 

+E E (?a-^'(^+^)+E E 

i=lj=t f _i+l i=lj=*i_i+l 

Disposant de ce developpement asymptotique, exactement de la meme fagon que dans la preuve de 
la proposition 3.1 de Dacunha-Castelle et Gassiat [1] ou bien celle du theoreme 4.1 de Keribin [5], on 
montre que le nombre N(e) d'e-brackets (cf van der Vaart [8]) necessaire pour recouvrir {Se,9 g Ofc} est 
de l'ordre de O ^l 2k+1+kxd ^j _ Q e \ a m ontre que S est une classe de Donsker ■ 

Sussmann [7] a montre que si les fonctions <f> sont des fonctions sigmoi'des et si on contraint les para- 
metres bi a etre positifs pour tout 1 < i < k, ceci afin d'eviter une symetrie sur les signes de (bi,Wi) et a.j, 
alors l'hypothese H-l est verifiee. De plus, en suivant un raisonnement similaire a Fukimizu [3], on peut 
montrer que les fonctions sigmoi'des verifient l'hypothese H-3. Ce theoreme s'applique done au cas le plus 
couramment utilise en pratique. 
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